#!/usr/bin/env python
# coding: utf-8

# In[2]:


"""统计文章单词出现次数"""

import re
# 正则表达式标准库模块

with open("1.txt", "r", encoding="utf-8") as fd:
    list_word=[]        # 存储所有单词
    dic_word_count={}   # 存储（单词：次数）
    for line in fd.readlines():
        for word in line.strip().split(" "):    
        # 所有单词去除标点符号、空格、回车换行，并全部小写
            list_word.append(re.sub(r"[.|!|,|?|/]", "", word.lower()))
        set_word=list(set(list_word))    # 去掉重复单词
        dic_word_count = {word: list_word.count(word) for word in set_word}   
        # 计算每个单词在所有单词（即文章）中出现的次数

# 单词按出现次数从大到小排序
        
result = sorted(dic_word_count.items(), key=lambda d: d[1], reverse=True)     
print(result)
        
# 读取文件，用list_word存储所有单词，set_word存储所有不同单词，便于对其进行排序


# In[ ]:




